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We describe our involvement in projects aimed at the production of French and 
Franco circibo berber digital resources : the BNFB (a project of the OIF FFI 
[1 ]) and HumaniteDigitMaghreb (a project of the CNRS ISCC). 

In this paper, we focus particularly on the methods used in 
HumaniteDigitMaghreb ( the TEI, specifically applied to the structuration of 
speech corpora and corpora of poetry and folk tcdes). The Imk with the 
ethnomusicological TEI markup is expected but will be considered later. 

We will also examine the practical and future issues of very large corpora, 
linguistically annotated in accordance with a common standard and designed to 
constitute, for the linguistic community (for us, the Berber world), the context 
necessary to interact with the future tools translation and e-semantics 

On this last point, for written or oral (audio signed or transcription) corpora, it 
is essential that the research community about Berber cooperate to promptly 
equip Berber languages of modern tools for digital processing. 


Introduction 

La mise en place de corpus numeriques est devenue une exigence si on veut 
sauvegarder notre patrimoine culturel et identitaire mais la creation de corpus 
oraux, par exemple, avec leur transcription, leurs traductions, leur annotation 
necessite des methodes modernes qui puissent faciliter leur exploitation et leur 
accessibility Aussi dans notre article, presentons- nous l’une de ces methodes, la 
TEI (Text Encoding Initiative) appliquee a la structuration d’un corpus en kabyle. 

En lien avec d’autres collegues, nous sommes impliques a des niveaux differents 
dans des projets de bibliotheques numeriques, de production d’ e-learning, de 
normalisation des TIC, de recueil linguistique et d’ organisation de ressources de 
documents dans la dynamique des Humanites digitales. Sans pour autant en tirer 
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pretention, nous considerons que la selection et le financement consequents de ces 
actions de recherches dans des appels d’offres proposes par des instances comme 
l’OIF ou le CNRS, confortent la pertinence de nos choix methodologiques. La 
large assiette des partenariats rassembles 1 nous permet aussi de disposer de 
competences interdisciplinaires (recherche litteraire, ethnologie, linguistique, 
bibliotheconomie, musicologie, ingenierie linguistique du document et des reseaux, 
expertise en normalisation) mais aussi de diversite geographique et multilingue. II 
nous semble, en effet, primordial que cette diversite des points de vue, des langues, 
des modes d’ expressions, des medias, des genres (ecrit, oral, image, musique, 
theatre, contes, poesie, etc.) soit pris en compte dans une collegialite numerique 
veritablement communicante. 

Telles sont, en effet, les ambitions primordiales des travaux dans lesquels nous 
sommes engages qui necessitent cette large palette de disciplines, de langues, de 
metiers et de diversite internationale et institutionnelle : 

• Faire communiquer des langues entre elles (la famille des langues berberes, 
les langues du Maghreb mais aussi a termes les langues mortes qui fondent 
son patrimoine mais encore rendre accessible les ressources que nous 
rassemblons de faqon mondiale) 

• Construire en synergie des corpus de documents numeriques en prenant la 
precaution de negocier leur intercompatibilite normative de faqon 
coherente et concertee pour que quantite d’utilisateurs 2 (mais aussi de 
createurs) de ressources puisse les reutiliser selon des diversites de 
facettes d’approche. Nous pensons, en effet, que rassembler des ressources 
numeriques doit obligatoirement se faire en ayant le souci de deployer un 
maximum de scientificite mais en ayant le souci constant que ces travaux 
soient utilisables par d’autres disciplines, mais aussi puissent participer de 
prosperite numerique des communautes concernees par ces patrimoines 3 . 

Si nous affichons ces ambitions c’est parce que nous savons qu’a l’egal de la 
mutation de la « Galaxie Gutenberg 4 », la mutation de la « Galaxie Digitale » nous 
impose de prendre en compte les recompositions de collegialite interdisciplinaire et 
bien sur la globalisation internationale et interlinguistique. 

La Galaxie Gutenberg avait refonde les sciences, l’industrie et l’economie. La 
Galaxie Digitale nous impose elle aussi de revoir fondamentalement nos methodes 


1 AUF, ISO, Telecom Paris Sud, Alliance Cartago, EHESS, Universite de Paris 8, de 
Bordeaux 3, de Paris 10, d'Evry. de Tunis, de Tizi-Ouzou, d'Oujda, d'Agadir, de Niamey, 
Conservatoire de Rimouski-Quebec. 

2 Non obligatoirement prevu a l’origine des projets. 

3 Si le monde academique a d'annee en annee besoin de plus d'outils, d'equipement, de 
missions internationales et s’il ne peut raisonnablement augmenter « en pourcentage » sa 
part du budget national cela impose obligatoirement a preter attention et a s'inscrire dans 
des synergies interdisciplinaires, des synergies internationales, des cooperations sciences- 
industrie et a etre attentif aux retombees d' usage pour la prosperite de la societe civile. 

4 Cf M. Mac Luhan. Sa these impliquait des hypotheses de mutations similaires que T auteur 
pointait avec les mass medias des annees 60. 
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selon de multiples imperatifs, notamment : interdisciplinarite, approche multimedia, 
multilinguisme, synergies sciences-industrie, pluralite des usages, mondialisation 
numerique des ressources (cloud computing), e-semantique. 

Nous ne developpons pas dans cet article la facette Bibliotheque numerique de nos 
travaux. Cette facette sera exposee dans d’autres publications et a ete d’ailleurs 
soumise au comite du TICAM 2012. II est cependant indispensable de signaler que, 
bien sur, la realisation de grands corpus de documents impose de s’inscrire au 
minimum dans les recommandations et les bonnes pratiques proposees par 
l’OCLC 5 et notamment s’appuyer sur le Dublin Core 6 * * * * II partage par la plupart des 
bibliotheques numeriques dans le monde. L’avantage majeur de ce respect des 
recommandations de l’OCLC et du DC etant que, si on en donne l’autorisation, 
toutes les bibliotheques compatibles dans le monde peuvent venir « moissonner » 
nos ressources berberes, et que reciproquement nous pouvons enrichir nos propres 
corpus en venant moissonner nous-memes automatiquement toutes les 
bibliotheques numeriques du monde grace aux mots-clefs ou aux termes « tagues » 
qui represented les problematiques qui traversed nos corpus. 

Baliser des documents sous plusieurs facettes 

Les taches specifiques decrites par les auteurs dans ce papier se focalisent plus 
specifiquement sur la TEI et son importance grandissante pour rendre disponibles, 
interoperables, reutilisables et normalisees des ressources linguistiques qui peuvent 
etre indifferemment des corpus oraux, des chansons, ou de la litterature. 
L’avantage de la TEI pour des ressources numeriques, c’est qu’elle autorise des 
traitements par balisages successifs, facette par facette, et permet ensuite leur 
alignement multifacette, multisupport, multidisciplinaire et multilingue. 
Concretement, une ressource sonore chantee et parlee kabyle pourra etre analysee 
linguistiquement et transcrite, elle pourra etre liee et alignee avec sa transcription, 
son analyse ethnomusicologique, puis ses transcriptions (par ex. en d’autres 
langues berberes et en fr., ar., es., en. ...). Le texte lui-meme pourra etre l’objet 
d’un balisage correspondant a des analyses litteraire et poetique, elles aussi, 
alignees avec les autres facettes. 


5 Le Online Computer Library Center (OCLC), fonde en 1967, nomme a l’origine Ohio 
College Library Center , est une organisation a but non lucratif mondiale au service des 
bibliotheques dont le but est d’offrir un meilleur acces public aux informations et d’en 
reduire le cout. Plus de 60 000 bibliotheques dans le monde utilisent les services de l’OCLC 
afin de trouver, de cataloguer ou de conserver leurs ouvrages. Les bureaux de l’organisation 
sont situes a Dublin, Ohio (USA). 

6 Le Dublin Core est un schema de metadonnees generique qui permet de decrire des 
ressources numeriques ou physiques et d'etablir des relations avec d’autres ressources. II 

comprend officiellement 15 elements de description formels (titre, createur, editeur), 

intellectuels (sujet, description, langue, . . .) et relatifs a la propriete intellectuelle. Le Dublin 

Core fait l’objet de la norme international ISO 15836, disponible en anglais et en Irancais 

depuis 2003. (6 pages, c’est done une norme extremement concise et facile a s’approprier). 

II est employe par l’Organisation mondiale de la sante (OMS), ainsi que dans de tres 
nombreuses institutions, etats et entreprises. Le Dublin Core a un statut officiel au sein du 
W3C et bien sur de 1'ISO. 
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C’est en cela que les exigences de multidisciplinarite, de multilinguisme, de 
synergie sciences-industrie (notamment industrie de langue) ne sont pas des vains 
mots. Le cceur de la mutation cognitive de la Galaxie numerique se situe la. Dans 
une operabilite synergique numerique d’ analyses scientifiques en sciences 
humaines qui s’additionnent, se recomposent, s’interfecondent de faqon croisee. 
C’est dans ce but que nous nous inscrivons dans le projet HumaniteDigitMaghreb 
qui a precisement pour objet de pousser plus loin les ambitions du projet BNFB et 
d’ aider les participants francophones, arabophones et berberophones du projet a 
s’approprier des methodes de la TE1. Le but final sera, done, que nous ne 
disposions pas seulement de bibliotheques numeriques uniquement referentielles 
(ce qui est deja bien !), mais que nous mettions en oeuvre graduellement un 
« balisage savant » des ressources (linguistique, litteraire, musicologique) qui 
donnera une veritable valeur ajoutee notamment aux ressources berberes. 

Le courant des Humanites digitales et la TEI 

Pour nous, le travail de formalisation des documents linguistiques s’opere sur deux 
versants complementaires : 

1. Celui de la numerisation des documents (Dublin Core) pour qu'ils puissent 
devenir disponibles, de faqon normalisee et interoperable sur une plate- 
forme partagee en commun par les participants des projets (la plate-forme 
OMEKA 7 ), mais qu’ils puissent aussi etre moissonnes partout dans le 
monde sur des plates-formes repondant aux specifications de l’OCLC et 
qu’a l’inverse, les participants des projets berberes et arabo-berberes 
precites puissent « moissonner eux aussi des documents dans toutes les 
bibliotheques numeriques ». 

2. Celui d’un balisage interne des documents deja numerises et references 
pour ce qui est de leur structure formelle, de leur morphologie, de leur 
signification, de l’ajout de gloses ou de notes, d’ hypotheses explicatives ou 
encore du balisage de leur alignement avec des fichiers associes 


7 Omeka est un logiciel flexible et open source, concu pour la publication sur le web de 
collections de documents numeriques provenant de bibliotheques, de musees ou d' archives. 
Le logiciel est developpe par le "Roy Rosenzweig Center for History and New Media”. 
L' interface standard permet de parcourir la liste des documents (ou items), d'afficher les 
fichiers associes a chaque document, de filtrer par mot-cle, de parcourir les collections. Une 
recherche simple et avancee complete les possibilites de navigation. Des extensions 
permettent l'ajout de fonctionnalites, facilitant par exemple la creation d’expositions 
electronique. L’ administration du site, intuitive et fonctionnelle permet la gestion des 
collections, des documents et des fichiers associes a chaque document. Le type des 
documents peut etre precise : texte, image, son, video, cours, histoire orale, email, site web, 
hen hypertexte, evenement ou personne. Les documents ont le statut public ou prive et 
peuvent etre mis en avant sur la page d’accueil du site. Les informations descriptives 
de chaque document sont renseignees au format Dublin Core. Des metadonnees 
supplementaires peuvent etre ajoutees, dependant du type du document, notamment la TEI. 
Les fichiers associes peuvent etre du type texte (TXT, DOC, PDF, XML, JPG, TIFF), 
image (GIF, JPEG, PNG, TIFF), son (AIFF, MIDI, MP3, OGG, QT, RA, WAV) ou video 
(AVI, MPEG, MP4, QT, SWF, WMV). 
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(transcription, traduction, interpretation ou autre versus mediatique comme 
des fichiers sonores ou videos associes a des textes, des partitions 
musicales, des photographies, des cartes, des reseaux ou des schemas). 

C’est done sur le point 2 que nous insistons dans cet article. 

Le probleme pose : la formalisation numerique normalisee des 
travaux en SHS 

Les SHS travaillent globalement sur une matiere plus « floue » que les sciences 
experimentales et bien sur que les sciences exactes : leur materiel principal est le 
document (souvent linguistique), leur outil d’ analyse est le plus souvent 
1’ argumentation textuelle et leurs resultats sont globalement des textes. 

Evidemment certaines sciences humaines (notamment la linguistique) pratiquent 
depuis longtemps la formalisation d’un grand nombre de leur description (qu’elles 
soient morphologiques, syntaxiques, argumentatives, etc.). Cette pratique de 
formalisation a grandement facilite leur collaboration avec les informaticiens et 
explique pour partie les progres en ingenierie linguistique. D’autres sciences 
humaines, les etudes litteraires par exemple ont ete longtemps et sont aujourd’hui 
encore globalement retives a la formalisation de leurs analyses. La recherche 
litteraire est de ce fait une science qui travaille sur le langage naturel, analyse, pose 
des hypotheses, les formalise sous forme d’enonces en langage naturel et 
communique ses resultats sous la forme quasi exclusive de textes argumentes en 
langage naturel. 

Cependant, notre objectif n’est pas de distribuer des bonnes ou mauvaises notes a 
telle ou telle categorie de chercheurs en SHS mais de comprendre la mutation de 
methode et d’ habitus des chercheurs. De fait, la question qui devient recurrente est 
celle de la normalisation des pratiques face a une relative proliferation des outils 
d’aide informatique dans certains segments du travail linguistique. 

Si nous nous appuyons sur une typologie grossiere des travaux scientifiques et 
industriels sur le langage, nous pouvons distinguer : 

Le travail sur les corpus oraux pour lequel il existe une relative proliferation des 
outils d’aide a la transcription, mais sur lequel il est urgent de s’ entendre sur des 
standards. 

Le travail d’ analyse litteraire qui n’a longtemps connu que des outils tres 
rustiques et limites comme les analyses statistiques de vocabulaire. 

Les travaux terminologiques et lexicographiques dont les principes et methodes 
ont ete normalises tres tot grace notamment a Eugen Wiister qui a per 5 u tres vite 
l’obligatoire necessite de normaliser les pratiques en fondant des 1937 ce qui allait 
devenir le Comite Technique 37 de 1’ISO (ISO TC37). 

Les travaux sur 1’ informatisation de l’ecriture : la question est largement connue 
a 1’IRCAM. Notons cependant que le scenario historique de ce qui s’est passe entre 
les annees 1960 et aujourd’hui est une excellente le 5 on devolution technologique 
et de la longue duree d’ appropriation technique, de l’imperieuse necessite de 


79 



Noura Tigziri & Henri Hudrisier 


s’inscrire dans la normalisation et de la necessite de comprendre le lien entre les 
progres de l’environnement technique 8 . Pour des raisons historiques, l’ecriture 
latine non accentuee a ete des le debut prise en compte et normalisee. On connait 
ensuite les normes successives et notamment la famille ISO 8859 qui prenait en 
compte les grandes ecritures alphabetiques (latine, cyrilliques, arabe, grec, 
hebrai'que...) mais qui ne pouvait coder ni les ecritures ideographiques, ni les 
ecritures sans interet industriel evident comme le tifinagh ou les ecritures 
archeologiques (cuneiformes, hieroglyphes). Sur ces derniers segments, on a bien 
sur assiste a une relative proliferation de standards proprietaires « bricoles » par 
des laboratoires ou de petites societes informatiques. C’est ensuite grace aux efforts 
des equipes des « chercheurs de terrain » (notamment a T IRC AM) que la 
normalisation de ces technologies de transition a pu se faire. 

Nous avons insiste sur cette question de la numerisation des ecritures (qui pose 
desormais peu de problemes) parce qu’elle est emblematique de l’obligatoire 
normalisation pour passer du foisonnement antiproductif des « standards 
proprietaires » comme c’etait le cas avant Unicode et comme c’est encore le cas 
pour la transcription des corpus oraux. 

En effet, comme le signale Thomas Schmidt 9 , il existe aujourd’hui un choix relatif 
pour des outils d’aide a la transcription (de transcription informatique des corpus 
oraux 10 ) et complementairement une relative profusion de standards de formats 
pour coder de faqon inutilement distincte les objets, les evenements, le contexte et 
les textes resultant de la transcription de ces corpus oraux. Certes, ces outils et 
formats presentent des differences mineures dues au contexte de leur 
developpement et de leur production. 

Par exemple, CLAN/CHAT a ete developpe pour transcrire et coder des corpus 
oraux d’enfants dans la base CHILDES alors que EXMARaLDA Partitur-Editor a 
ete developpe dans un contexte d’ etude du multilinguisme et de la dialectologie. 
Tous ces outils ont des fonctionnalites similaires qui leur permettent simultanement 
de disposer d’un « player son » visualisant « l’enveloppe des productions sonores » 
et de zones de capture textuelle presentee en lignes paralleles (voir ci-dessous 
figure 1, une capture d’ecran d’EXMARaLDA). 

Pour compliquer encore la situation, les grands corpus mondiaux de transcription 
orale, ont bien naturellement developpe des « conventions proprietaires » de 
codage des resultats dans leurs bases (voir ci-dessous figure 2, un tableau 
recapitulatif selon Thomas Schmidt). 


s Dans ce cas particulier la necessite d'attendre les progres d'une informatique a 8 bits puis 
des processeurs a 16, 32, 64 bits et plus qui permettent maintenant de travailler directement 
en Unicode ce qui etait plus problematique quand les processeurs etaient a 8 bits. 

9 Thomas Schmidt, « A TEI-based Approach to Standardising Spoken Language 
Transcription », Journal of the Text Encoding Initiative [Online], Issue 1 I June 2011, 
Online since 08 June 2011, connection on 08 July 2012. URL : http://jtei.revues.org/142 ; 
DOI : 10.4000/jtei.l42 

10 ANVIL, CLAN/CHAT, ELAN, EXMARaLDA Partitur-Editor, FOLKER. Praat, 
Transcriber 
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File formats and transcription conventions for different spoken language 
corpora 


Corpus (Language) [URL] 

File format 

Transcription 

convention 

SBCSAE (American English) 
[http ://proj ects . ldc . upenn. edu/ 
SBCSAE/ ] 

SBCSAE text 
format 

DTI (DuBois et al. 
1993) 

BNC spoken (British English) 
[http://www.natcorp.ox.ac.uk/ ] 

BNC XML 
(TEI variant 1) 

BNC Guidelines 
(Crowdy 1995) 

CallFriend (American English) 
[http ://talkbank. org/J 

CHAT text 
format 

CA-CHAT 
(MacWhinney 2000) 

METU Spoken Turkish Corpus 
(Turkish) 

[http://std.metu.edu.tr/ en] 

EXMARaLD 

A 

(XML format) 

HIAT (Rehbein et al. 
2004) 

Corpus Gesproken Nederlands (CGN, 
Dutch) 

[http://lands.let.kun.nP cgn/ ehome.htm] 

Praat text 
format 

CGN conventions 
(Goedertier et al. 2000) 

Forschungs- und Lehrkorpus 
Gesprochenes Deutsch (FOLK, 
German) 

[http://agd.ids-mannheim.de/ htmP 
folk, shtml] 

FOLKER 
(XML format) 

cGAT (Selting et al. 
2009) 

Corpus de Langues Parlees en 
Interaction (CLAPI, French) 
[http://clapi.univ-lyon2.fr/ ] 

CLAPI XML 
(TEI variant 2) 

ICOR (Groupe Icor 
2007) 

Swedish Spoken Language Corpus 
(Swedish) 

[http://www.ling.gu.se/ projekt/ old_taP 
SLcorpus.html] 

Goteborg text 
format 

GTS (Nivre et al. 1999) 


Pour ce qui est du traitement numerique des corpus oraux, nous sommes done 
confrontes a une situation tout a fait similaire a celle de la codification des ecritures 
avant leur normalisation convergente avec Unicode. II existe une relative anarchie 
des outils d’aide a la capture et a la transcription ainsi que des formats de codages. 
Comme le fait remarquer Lou Burnard 11 , « Le constat est recurrent : a la variete 
des formats utilises se superpose 1’ incoherence des pratiques conventionnelles de 
transcription des donnees orales. En depit de plus de vingt annees de pratiques 
convergentes, les communautes interessees preferent travailler avec leurs propres 


11 Lou Burnard : « Encoder l'oral en TEI : demarches, avantages, defis. ...» Conference a la 
Bibliotheque Nationale de France, prononcee le 10 mai 2012, Publie le 19/06/2012 par 
Abigael Pesses. 
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outils et conventions “maison”. Pourtant, l’interet de se servir d’un format commun, 
voire pivot, est un sujet qui a ete aborde dans la litterature academique a de 
multiples reprises : Edwards & Lampert (1993), MacWhinney (2007), Schmidt 
(2011). Ne serait-il pas finalement temps d’etablir un format d’echange normalise 
pour les donnees or ales? ...[La TEI grace a son format federateur TEI transcription 
of speech et aussi grace a son alliance en consortium avec 1’ISO TC37 est 
actuellement en situation de devenir la norme 12 ] ». 

Dans les projets auxquels nous faisons references (BNBF et 
HumaniteDigitMaghreb J les participants se reclament globalement de ces deux 
disciplines, souvent des deux ensembles, mais aussi de la bibliotheconomie, 
l’histoire, la petrographie, l’ethnologie, l’ethnolinguistique, la musicologie. 

En nous inscrivant dans l’ecole de pensee des Humanites digitales et de la TEI qui 
est sa norme et son outil technique, nous voulons explicitement donner non 
seulement une realite tangible et numerique a nos travaux, mais aussi les rendre 
facilement echangeables, cumulables, ameliorables, modifiables partout dans le 
monde. Nous voulons que nos travaux linguistiques participent « pre- 
industriellement de l’ingenierie linguistique. Nous voulons que nos travaux de 
recherche litteraire soient non seulement visibles dans le monde entier, mais encore 
qu'ils s’inscrivent dans la synergie mondiale des etudes litteraires computorisables. 
Nous voulons aussi sur un plan plus specifiquement pan berbere que nos travaux 
soient deja facilement echangeables et cumulable entre nous et avec nos trois 
langues partenaires maghrebines (arabe, fran 5 ais, espagnol auxquelles il convient 
de rajouter l’anglais). C’est la raison primordiale de notre implication dans le projet 
HumaniteDigitMaghreb . 

Qu’est-ce que HumaniteDigitMaghreb ? 

HumaniteDigitMaghreb est un projet du CNRS-ISCC 13 . C’est une recherche-action 
dans laquelle sont engages des acteurs de terrain (linguistes, chercheurs en 
litterature, culture, histoire tant fran 5 aise qu’ arabe ou berbere) soucieux d’inscrire 
leurs pratiques dans 1’ organisation rationnelle de corpus numeriques repondant aux 
recommandations mondiales des reseaux de bibliotheques numeriques (OCLC) et 
des Humanites digitales. Ces acteurs de terrain sont associes avec des praticiens de 
la cooperation francophone numerique, des specialistes de 1’ information et de la 
communication, des fondateurs de la TEI et des Humanites digitales en France, des 
specialistes de T appropriation des usages du numerique et plus specifiquement des 
patrimonies numeriques. Parallelement a son etude d’ appropriation, cette recherche 
s’appuiera sur des realisations en cours de structuration de corpus patrimoniaux 
franco-arabo-berberes. 


12 Cette conclusion entre crochets est d’ Henri Hudrisier mais correspond a faction des 
leaders de la TEI effectivement lies aux actions de l'iso TC37, notamment Laurent Romary 
convener de 1'ISO TC37-SC4. 

13 Institut des sciences de la communication du CNRS (Centre National de la Recherche 
Scientifique). 
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Les partenaires historiques de la TEI 

La TEI (Text Encoding Initiative) a ete fondee a la suite d’une conference 
sponsorisee par l'ACH (Association for Computers and the Humanities) 14 et 
financee par le NEH (U.S. National Endowment for the Humanities) 15 . Cette 
conference avait lieu au Vassar College (Poughkeepsie, N.Y. - USA) en novembre 
1987. Environ trente representants du monde des bibliotheques, des societes 
savantes et de projets de recherche interesses par le codage des textes et la 
recherche litteraire ainsi que d’informaticiens specialises en SGML etaient invites a 
cette conference pour discuter la faisabilite d'un codage standard et elaborer des 
recommandations. Pendant la conference, l'ACL (Association for Computational 
Linguistics) 16 et l’ALLC (Association for Literary and Linguistic Computing) 17 ont 
decide de rejoindre l’ACH comme les sponsors d'un projet pour developper les 
Directives de la TEI (TEI Guidelines). En 1988, ils ont ete rejoints par la 
Commission de la Communaute Europeenne, 1’ Andrew W. Mellon Foundation 18 et 
le Social Science and Humanities Research Council of Canada 19 . 


14 L’ACH (Association for Computers and the Humanities) a ete fondee en 1978, une 
epoque ou la relation entre informatique et humanites, etait encore tres confidentielle. La 
plupart des grands universitaires du domaine jugeaient meme qu’il s’agissait d’une alliance 
contre nature. En une trentaine d’annee, le paysage a bien change. L'ACH a mis en place un 
forum pour la recherche, des discussions et les explorations techniques qui ont alimente 
cette transformation. L’ACH est devenue une association beaucoup plus vaste. Elle 
patronnait chaque annee ; la conference d’Humanites Numeriques annuelle (maintenant 
patronnee par ADHO. 

15 Le NEH (U.S. National Endowment for the Humanities) est une agence federale 
americaine independante fondee en 1965 par le President Lyndon Johnson. C’est le plus 
important organisme de financement dans le secteur des Humanites aux USA. II intervient 
pour financer 1’ excellence culturelle, museale, academique mais aussi la radio et la 
television, voire des bourses de recherches individuelles. 

16 L’ACL (Association for Computational Linguistics) est l’Association de reference 
mondiale pour les professionnels et les scientifiques travaillant sur les questions liant 
langages naturels et traitement informatique. L’ACL edite Computational Linguistics et 
organise des conferences annuelles (la 51 eme conference est prevue en 2013 a Sofia). 

17 L’ALLC (Association for Literary and Linguistic Computing) a ete fondee en 1973 dans 
le but de favoriser des applications d’informatisation de l’etude du langage et de la 
litterature. L’ALLC s’interesse a l’analyse des textes, aux corpus textuels, a l’histoire, 
l’histoire de 1’ Art, la musique, l’etude des manuscrits et a l’edition electronique. 

1 8 La Fondation Andrew W. Mellon de New-City et Princeton est une fondation privee, 
dotee de richesses accumulees par Andrew W. Mellon de la famille Mellon (Pittsburg, 
Pennsylvanie). C’est une fondation prestigieuse qui intervient dans l'enseignement 
superieur, les bibliotheques et la communication savante, les musees et la conservation de 
l’Art, les arts de la scene, et les TIC. Plus precisement le developpement de logiciels 
interressant ses principaux champs d’interets ci-dessus. 

19 Le Social Science and Humanities Research Council of Canada en Irancais Conseil de 
recherche en sciences humaines du Canada (SSHRCC- CRSHC) est un organisme du 
gouvernement federal canadien ayant pour mission d'appuyer la recherche et la formation 
avancee en milieu universitaire dans le secteur des sciences humaines. 
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On voit bien que ces associations fondatrices ne sont pas d’obscurs partenaires, ces 
diverses institutions operaient une importante jonction synergique en fondant la 
TEI. Certes, la TEI a contribue a ce qu’un vaste public savant s’approprie des 
« standards bonnes pratiques » en matiere de traitement et de communication pour 
1’ etude savante des textes. Parallelement, les institutions fondatrices n’oubliaient 
pas leurs objectifs fondateurs reciproques eminemment complementaires : 
Humanites computationelles ; recherche litteraire par ordinateur ; linguistique 
computationelle ; recherche litteraire computationelle ; developpement de logiciel 
pour le traitement de corpus culturels numeriques et bibliotheques. 

C’est d’ailleurs dans la perspective de ces objectifs que l’ALLC, en cooperation 
avec l’ACH et la SDH-SEMI 20 ont prefigure (des 2002) puis fonde en 2005 
l’ADHO 21 . 

On voit bien ainsi la synergie qui peut exister entre la TEI qui definit des standards 
et des bonnes pratiques et les Humanites digitales qui permettent que se socialisent 
ses usagers, qu’ils adaptent les outils (notamment ceux des bibliotheques 
numeriques) a des besoins specifiques, qu’ils echangent des methodes, des modeles 
de structuration et de balisage de leurs corpus (en fait des TEI-DTD adaptees aux 
besoins de leurs corpus et de leurs pratiques d’ analyse savantes et d’echanges). 

Une synergie TEI, Humanites digitales et bibliotheques 
numeriques 

Toutes les universites heritieres de ces premieres universites europeennes 
travaillant en latin utilisent le terme « Humanitas » pour designer les disciplines de 
sciences humaines et sociales, ainsi que la recherche en Art et litteraire. Pour des 
raisons historiques, les institutions academiques anglophones gardent toujours 
vivant la designation « Humanites » qui constitue toujours une sorte de 
metadiscipline recouvrant pratiquement ce que les francophones nommeraient 
« Arts et Lettres » parce qu’en franqais, 1’ expression «, ‘ les Humanites » est 
devenue un peu desuete. Quels que soient les termes, le monde anglo-saxon puis 
l’Europe du Nord et, avec un certain retard, la Francophonie s’emparent 
maintenant de 1’ expression Humanites digitales, ce qui redonne du sens a 
l’ancienne expression « les Humanites ». 

En fait, on pourrait dire que de la rencontre de ces institutions et de leur 
convergence synergique sont nes deux axes de dynamique d’ action 
fonctionnellement complementaires qui rentrent en resonance avec une realite de 
l’environnement technologique : les bibliotheques numeriques. L’ADHO a adopte 
comme publication principale, le journal officiel de l’ALLC « Journal of Digital 
Scholarship in the Humanities » publie par les Oxford University Press. Deux 


20 Society for Digital Humanities-Societe d’etude des medias interactifs (CAN). 

21 L’ADHO (Alliance of Digital Humanities Organizations) est done une alliance 
internationale qui a pour objectif de soutenir les applications informatiques pour F etude du 
langage et de la litterature : en fait les Humanites digitales. Elle le fait en soutenant des 
publications, des ateliers specialises (classes d’ete), a travers aussi des groupes de travail 
thematiques repondant notamment a des disciplines et des sous-diciplines. 
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autres publications ont une portee mondiale en la matiere : « DHQ, Digital 
Humanities Quartely » et « Digital Studies / Le champ numerique 22 tous deux 
publies sous la responsabilite de l’ADHO. 

Citons encore pour memoire afin de survoler la problematique des Humanites 
digitales : Humanist: Un seminaire electronique sur les applications de 
l’informatique aux Humanites http ://www. allc. or g/publications/humanist 

Mind Map of the Digital Humanities: Une cartography conceptuelle de l’univers 
des Humanites digitales disponibles sur http ://w w w. allc . or g/publications/mind- 
map-digital-humanities 

Cela permet d’ avoir une vision synoptique et facile d’acces mise a jour en 
permanence par 1’ ensemble des communautes TEI, des publications, des outils 
disponibles. Notre ambition serait que TEI berbere y figure bientot. 

Dans cette partie, nous appliquons le codage TEI sur un corpus kabyle. Nous avons 
choisi de travailler sur un ecrit parce que l'oral presuppose un certain nombre de 
decisions a prendre en ce qui concerne la definition de certains concepts tels par 
exemple la phrase, Tenoned, le paragraphe... C'est pour cela que pour cette 
premiere application, nous avons juge plus pratique de travailler sur un corpus ecrit. 
II s'agit de la traduction en kabyle de Kamal Bouamara de "Jours de Kabylie" de 
Mouloud Feraoun. L’oeuvre contient un certain nombre de parties. Nous avons 
travaille sur deux parties pour montrer comment se fait le codage en TEI. 

La premiere partie est "Taddart-iw" (mon village), la deuxieme est "Tajmaet n At 
Flan" (la djemaa de Flan (un tel)). 

Tout codage en TEI commence par la definition des elements a mettre dans le 
<TeiHeader>. Pour notre part, nous avons le <TeiHeader>, comme ceci : 


22 Digital Studies / Le champ numerique (ISSN 1918-3666) est une publication universitaire 
specialisee paraissant trois fois par an, destinee aux chercheurs dans le domaine des 
sciences sociales numeriques et ayant pour objectif de leur offrir une ressource de niveau 
universitaire et de fournir un cadre formel a leurs activites de recherche. DS/CN est publiee 
par la Society for Digital Humanities / Societe pour T etude des medias interactifs 
(SDH/SEMI), un organisme affilie a TAssociation for Computers and the Humanities 
(ACH) et a TAssociation for Literary and Linguistic Computing (ALLC), via T Alliance of 
Digital Humanities Organisations (ADHO). 
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<TeiHeader> 

<fileDesk> 

< 

<publicationStmt> 

<publisher> ENAG </publisher> 

<pubPlace> Alger </pubPlace> 

<date>1998 </date> 

</publicationSmt> 

</fileDesk> 

</teiHeader> 

Avec deux attributs dans le <fileDesk>, le titre <titleStmt> qui precise tout ce qui 
est relatif au titre avec P intitule de l’ouvrage, l’auteur et on a ajoute la balise 
<editor> pour specifier que c’est une traduction et la balise 
<relatedItemtype="translatedFrom"> pour donner la traduction. 

<titleStmt> 

<title> Ussan di Tmurt </title> 

<author> Mouloud Feraoun </author> 

<editor role="translator"> Kamal Bouamara </editor> 
<relatedItemtype="translatedFrom"> 

<bibl> 

<author>Mouloud Feraoun</author> 

<title>Jours de Kabylie</title>. 

<date> 1 954</date> 

</bibl> 

</relatedItem 

</tileStmat> 

et les donnees concernant la publication de cet ouvrage comme, l’editeur la date, 
le lieu de publication. 

<publicationS tmt> 

<publisher> ENAG </publisher> 

<pubPlace> Alger </pubPlace> 

<date>1998 </date> 

</publicationSmt> 

Une fois ces donnees introductives definies, nous passons au codage du texte lui- 
meme. 

<text> 

<body> 

<div n=l> 

<head> taddart-iw </head> 
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Avec le corps du texte <body> comprenant un attribut <div> qui lui-meme est 
subdivise en <head> (entete) et <p> (paragraphe). 

Dans cette derniere balise nous definissons une balise <S> (phrase). Nous 
definissons la phrase au sens large du mot. Un segment compris entre deux points. 
Comme nous avons a prendre par moment des decisions par rapport a la definition 
du « mot » et du « mot compose » qui a deux parties reliees par un trait d’ union, 
phenomene assez courant en kabyle, nous avons opte pour considerer que le mot 
compose de n elements est un seul mot avec comme la definition du mot « tout 
element compris entre deux blancs », dans ce cas, le codage en TEI se fait de cette 
maniere 

Exemple : 

d win d-yettalsen (mot compose : d-yettalsen) 

<w>d</w> 

<w>win</w> 

<w>d</w> 

<hyphen>-</hyphen> 

<w>yettalsen</w> 

Si on considere le mot compose de n parties comme etant un seul mot, dans ce cas, 
le codage se fait ainsi : 

Exemple : d win d-yettalsen (mot compose : d-yettalsen) 

<w>d</w> 

<w>win</w> 

<w>d<hyphen>-</hyphen>yettalsen</w> 

Ainsi le codage TEI du paragraphe et de la phrase est donne par ce qui suit : 

<P> 

<s> 

<w>Ur</w> 

<w>lliy</w> 

<w>ara</w> 

<w>seg</w> 

<w>wid</w> 

<hyphen>-</hyphen> 

<w>nni</w> 

<w>yettyuddun</w> 

<w>taddart</w> 

<hyphen>-</hyphen> 

<w>nsen</w> 

<pc>.</pc> 
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</s> 

<s> 

<w>Mi</w> 

<w>ur</w> 

<w>fnetzey</w> 

<w>ara</w> 

<w>s</w> 

<w>waya</w> 

<w>nezzeh</w> 

<pc>,</pc> 

<w>zriy</w> 

w>acuyer</w> 

<pc>.</pc> 

</s> 

Le deuxieme corpus est un corpus oral. II s’agit d’un meeting tenu par le president 
du parti du Rassemblement pour la culture et la democratic, le docteur Said Saadi, 
lors des elections legislatives de 2002. 

Codage du TEI HEADER 

<teiHeader> 

<fileDesc> 

<titleStmt> 

<title >Meeti ngpol i tique </ti tle> 

<author> Said Sadi=" President du RCD" </author> 

</titleStmt> 

<publicationStmt> 

<pubPlace>type—"Tizi Ouzou">Stade Oukil Ramdane</pubPlace> 

<date> 2002.05.02 </date> 

</publ i ca ti onStmt> 

<sourceDesc> 

< recordingStmt> 

<recording type- "audio" dur- "P30M"> 

<equipment> 

<p> audio tape, realise par B. S.</p> 

</equipment> 

</recording> 

</recordingStmt> 

</sourceDesc> 

</fileDesc> 

</teiHeader> 
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Codage du corps du texte 

<text> 

<body> 

<incident> 

<desc>Applaudissement</desc> 

</incident> 

<u>who="# Said Sadi "> 

<seg>Azul</seg> 

</u> 

<incident> 

<desc>Applaudissement</desc> 

</incident> 

<u>who="# Said Saadi "> 

<seg>Azul <pause dur="PT10S"/> Azul d ameqran</seg> 

</u> 

<incident> 

<desc>Applaudissement</desc> 

</incident> 

<u>who="# Said Saadi "> 

<seg>Tsellem-d deffir kunwi i igubrentili</seg> 

</u> 

<incident> 

<desc>Applaudissement</desc> 

</incident> 

<u>who="# Said Sadi "> 

<seg> 

Azul<pause du r="PT20S"x/pause> 

</seg> 

<seg>Yidwen am yidelli am assa am uzekka wer ttagadut<pause 
dur="PT20S "/></ seg> 

</u> 

<incident> 

<desc>App</desc> 

</incident> 

<u>who="# Said Saadi "> 

<seg>Qqaren- as imezwura- nney<pause dur="PT10S"/> isers uheddad 
tafdist<pause dur="PT10S"/>irfed-itt mmi-s<pause dur="PT20S"/x/seg> 

</u> 

<incident> 

<desc>Applaudissement</desc> 

</incident> 

<u>who="# Said Sadi "> 

<seg>D ayen igellan di tiyri n nouvembre rebea uxemsin<pause 
dur="PT10S"/>Dayen igellan di la plate forme n la soumam<pause dur="PT05S"/> 
ayen i gellan<pause dur="PT05S"/>deg dusyi -nni i d nexdem deg Xckkurcn deg 
seggasen n tmanyin<pause dur="PT05S"/> i gellan di la plate forme Lleqsar<pause 
dur="PT20S"/> </seg> 
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</u> 

</body> 

</text> 

Conclusion 

La TEI a l’avantage de rendre disponibles, interoperables, reutilisables et 
normalisees des ressources linguistiques. II est vrai que le travail de codage est 
fastidieux surtout quand il s’agit de travailler sur des corpus de grandes tailles mais 
vu les avantages que presente cette methode, nous avons tout interet a I’ exploiter et 
nous l’approprier a cause de l’un de tous ses avantages dont l’interoperabilite. 

Quel que soit le corpus choisi, la disponibilite des balises de codage rend la tache 
de balisage plus facile a apprehender. En effet, les membres du consortium qui 
ont etabli la TEI ont prevu absolument toutes les balises utiles dans le codage de 
ressources linguistiques quelles qu’elles soient : corpus ecrit, corpus oral et de 
quelle que soit la discipline : linguistique, litterature, musique 
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